package PDF知识点;

/**
 * @description: 在线url 中文词频统计
 * @Author lxs
 * @Date 2025/5/16 10:02
 */
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.InputStream;
import java.net.URL;
public class OnlinePDFChinaKeywordCounter {
    public static void main(String[] args) {
    String pdfUrl = "https://www.pdf";
    String keyword = "管理层";  // 要统计的中文关键词

    try (InputStream inputStream = new URL(pdfUrl).openStream();
         PDDocument document = PDDocument.load(inputStream)) {

        PDFTextStripper stripper = new PDFTextStripper();
        String text = stripper.getText(document);

        // 直接用 indexOf 不区分大小写（对于中文没必要转小写）
        int count = countOccurrences(text, keyword);
        System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);

    } catch (Exception e) {
        System.err.println("处理 PDF 时出错: " + e.getMessage());
        e.printStackTrace();
    }
}

    // 简单统计子串出现次数（适用于中文）
    private static int countOccurrences(String text, String keyword) {
        int count = 0;
        int index = 0;
        while ((index = text.indexOf(keyword, index)) != -1) {
            count++;
            index += keyword.length();
        }
        return count;
    }
}

